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Моделювання емощйних прояв!в за допомогою 
параметричних моделей голови людини 


В работе рассмотрен метод получения числовых параметров параметрической модели головы человека 
для задачи моделирования эмоциональных проявлений в жестовом языке. Описаны этапы получения 
модели эмоциональных проявлений, включая информационную и параметрическую модели. Предложен 
набор признаков, который может использоваться в задаче идентификации параметров на основании 
признаков параметрической модели. 
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Введение 


Жестовый язык — природная форма общения неслышащих людей. Он включает 
собственно жесты, артикуляцию и немануальные маркеры, такие как мимика, дви- 
жения туловища и головы [1], [2]. В современном украинском жестовом языке достаточ- 
но хорошо изучена область мануальных компонент [3], [4], но, в то же время почти не 
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изучены немануальные компоненты, хотя подобные исследования проводились в 
американском [5], французском [6] и немецком жестовом языке [7]. 

В работе [8] было показано, что мимика, представленная в виде текстовой информа- 
ции, может быть описана в системе описания мимических компонент. Более полно 
изучен этот вопрос был в исследовании, посвященном созданию аудиовизуальной 
базы данных [9]. Были проанализированы словари жестовой речи, в результате чего 
выделено 70 мимических выражений и 27 выражений, описывающих специфичные 
для жестовых языков грамматические конструкции. Наличие такого объема данных 
вызвало необходимость представления данных в другой форме, которая позволила 
бы выполнять анализ и обработку данных. 

Постановка задачи. Необходимо создать параметрическую модель головы, позво- 
лявшую моделировать эмоциональные проявления в жестовой речи и апробировать 
ее на тестовом наборе видеозаписей с целью получения временных характеристик изме- 
нения каждого компонента лица, представленного в виде параметрической модели. 

Для того чтобы получить такую модель, в первую очередь следует решить сле- 
дующие задачи: 

— каким образом следует выделять признаки на лице; 

— какое минимальное количество признаков необходимо для получения модели, 

достоверно описывающей мимику и артикуляцию; 

— какое количество наборов элементов мимики и примеров каждого элемента 

мимики в отдельности требуется для построения и апробации модели мимики лица 
человека. 


Создание параметрической модели 


Общие сведения о параметрических моделях. Задача получения парамет- 
рической модели головы разбивается на три подзадачи: получения набора 
параметров, получение статической (34-модели) и динамической модели (модели 
анимации). Как правило, для описания формы лица используется статическая модель 
в виде набора точек (сетка, «тезВ» или просто 34-модель) [10]. Динамическая 
модель описывает правила изменения (моделирования) изменений мимики на 
статической модели головы на основе входных параметров. После получения 
статической и динамической модели производится получение числовых параметров, 
которые характеризуют проявление на лице различных артикуляционных и 
мимических единиц, что выполняется с применением методов компьютерного 
зрения. 

Получение набора ключевых точек. На основании описаний в системе ЕАС$ [11], 
полученных в исследовании [9], был получен набор параметров, характеризующих 
изменения в различных областях лица. 

Несмотря на то, что типов динамических моделей не так много, существует 
определенное разнообразие ключевых точек, в которых располагаются контроллеры 
анимации и узловые точки костной или мышечной анимации [12]. Основное 
назначение ключевых точек — выполнение роли промежуточного слоя между 
элементами динамической модели и входными данными (т.е. параметрами пара- 
метрической модели), т.к. не существует однозначного соответствия между коорди- 
натой точки на лице в кадре исследуемого видео и координатой точки в координатах 
динамической модели. С помощью математических преобразований (определяемых 
свойствами динамической модели) координаты ключевых точек, полученные из входных 


«Штучний 1нтелект» 2013 №3 155 


| Крак Ю.В., Кузнецов В.А., Тернов А.С. 


числовых параметров, преобразуются в координаты узлов динамической модели (костей, 
морфов, мышц). 

Для того чтобы получить набор параметров, был проведен эксперимент, в котором 
была изучена внутренняя мимическая структура лица. Это стало возможным благодаря 
наличию соответствия между параметрами в системе ЕАС$ и соответствующими мышща- 
ми лица. На основании этого набора параметров получена табл. 1, описывающая соответ- 
ствие между набором параметров параметрической модели и мыпцами лица. 


Таблица 1 — Соответствие между мышцами и полученным набором параметров 


[+ [вов [Сотня [щей | Мышше сморщивающыя бровь | 


ви д мыш ра г 
Еее И 


| 6] Веки | ОгысШат$ осий рагз огрНа/5 | Круговая мышиа глаза = | мышца глаза 
| 71 Веки | ОгГысшат$ осий рагз ра1ребга!$ Круговая мышца глаза 


Губы Геуаюг [аб п зиремогз | а|ади ае паз1 Подниматель верхней губы 
носовой части 


[1 Подниматель верхней губы — | верхней | Подниматель верхней губы — | 

О Е ЕЕ 
[бы — [Рувопннавиню" | [Болышя оуломямыше | 
[вэб [в р [Мыщетолммауюжари | 
ПО О ТСО ОО ЕО 
[5 бы [ав | [Мыши муаняуюжаря | 


ИИЫЯ | — ЖЕ 


—_______ [Гобобонямыши 


18 | Губы Шачми [аби зиреног!$, шетог!5 | Резцовые мышцы нижней и 
верхней губы 


1 Мышца смеха, Мышца шеи | | Мышца смеха, Мышца шеи | Мышца шеи 
ЕТ Е 
[23 [55=  [офаввов | [уоямышар | 
[2 [Пубы_ [Офевов |  [уомямыщерн | 
[25 [Тубы [ое ов | [Круонямышерн — | 
 ____ [ Жевательная, височная мышца | височная | Жевательная, височная мышца | 


31 | Челюсть РУО. Пувазас И ЕТ крыловидная 
И 


Е 


Ро пез — роза [тя ры ре 
веко 


Отоиаи ов" [разрез 
Оса овый [раз раребтайз 
Оса овый [раз раребтайя 


Примечание: мимические проявления, отвечающие за поворот головы и направ- 
ления взгляда, не анализировались. 

На основании табл. | был выбран набор внутренних мимических проявлений, 
которые использовались в эксперименте по получению параметров. Для этого были 
проанализированы анатомические разрезы из анатомических атласов [12], [13]. 


156 «Искусственный интеллект» 2013 №3 


Моделирование эмоциональных проявлений с помощью параметрических моделей... 3 к 


Эти разрезы позволили установить следующее: 

— на каких характерных точках (соединения костей, изменения рельефа и др.) 
находятся соединения мышц с костями; 

— по каким характерным точкам лица (внешним и внутренним) проходят мыпщы. 

На основе полученных данных на лицо реального человека были нанесены во- 
дорастворимыми красками следующие объекты внутренней структуры лица: 

— области расположения мышц и их вкраплений в кости головы; 

— контуры костей головы. 

Это позволило бы установить, как соотносятся контуры костей головы, мышц и 
внешних контуров, а также области на внешней поверхности лица, в которых будет 
наблюдаться максимальная амплитуда сокращений мышц (прим. концы мимических 
мышц). 

На основе фотографии лица с этими отметками была получена упрощенная модель 
мышечной структуры лица (рис. 1) — контуры мышц лица были аппроксимированы 
полиномами, проходящими через характерные точки лица (внешние и внутренние). 


\ | Егощайз (лобная мышца) 
И 
Гы Ргосегаз (мышца гордецов) 
р. Й 


Соггизаюг (мышца, сморщивающая бровь) 


тЫсшаи5 осий (круговая мышца глаза) 
азаПз (носовая мышца) 
Шаог папз (мышца, расширяющая ноздри) 


Саштиз (мышца, поднимающая угол рта) 


Виссшаюг (щечная мышца) 
Пергеззог зерИ (опускающая перегородку носа) 
Огясшан$ от (круговая мышца рта) 


Тпапошаи$ (опускающая угол рта) 


/ / 
=. «= Е (подкожная мышца шеи) 
Мешайз (подбородочная) 


Рисунок 1- Упрощенная схематическая модель мышечной структуры головы на 
лице реального человека 


На основании этой схемы был предложен набор ключевых точек, которые должны 
быть включены в иараметрическую модель. Ключевые точки расставлялись внутри 
областей, соответствующих мыпцщам на лице. Они выбирались таким образом, чтобы их 
плотность была величиной постоянной и не изменялась сильно по поверхности лица. 
Для мышц, закрытых другими мышцами или костями (например, как мыпща Тетрога|$) 
ключевые точки не выставлялись, а мышцы, расположенные под болыпими углами к 
анфасу лица, отображались меньшим числом точек (т.к. в противном случае поверх- 
ностная плотность бы возрастала). Кроме того, выделялись точки, соответствующие 
креплениям мышц к кости или в мягких тканях, и внутренние точки. 

При первоначальной поверхностной плотности точек на областях мышц 6 = 1 то- 
чка/см” общее число точек составило 141 (рис. 2а.). Уменьшение линейной плотности то- 
чек вдвое по одной из осей мышц (радиальной или латеральной) ириводит к уменьшению 
количества точек на 46. Таким образом, при плотности точек 6, = 0,5 точка/см и 6, = 1 то- 
чка/см или 0, = 1 точка/см, 61 = 0,5 точка/см число точек составляет 95, а при 6, = ди = 0,5 
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точка/см число точек составляет 49 (рис. 26). Такое уменьшение плотности точек вызва- 
но необходимостью обрабатывать меньшее количество точек на этапе получения число- 
вых параметров. 


Рисунок 2 — Расположение точек при различной линейной плотности: 
а) при плотности 1 точка/кв.см; 6) и 0,5 точек/кв.см 


Получение статической модели. После получения набора параметров пара- 
метрической модели был проведен эксперимент по созданию статической модели. 

Существует несколько методов создания статической модели [14]: 

— создание статической модели вручную, с помощью средств компьютерной гра- 
фики; 

— создание модели из другой готовой модели головы, с адаптацией к голове реаль- 
ного человека; 

— использование методов фотограмметрии (реконструкция трехмерного изобра- 
жения по фотографиям с разных ракурсов) для автоматического получения черновой 
модели с последующей корректировкой. 

Первые два варианта были отброшены по нескольким причинам: во-первых, они 
сильно трудозатратны по времени и ресурсам, во-вторых, присутствует человеческий 
фактор, который может сказаться при создании рельефа модели; в третьих, крайне 
низкий уровень автоматизации обработки данных, что противоречит поставленным 
задачам. Поэтому для создания статической параметрической модели было предло- 
жено использовать одну из реализаций метода фотограмметрии в программном па- 
кете АмодезК 123ОСакь [15]. 

Для получения статической модели было сделано 30 снимков головы реального че- 
ловека, выполненные с разных ракурсов, которые были загружены в программный пакет. 
Полученная в результате высокополигональная трехмерная модель (рис. За) преобразовы- 
валась в низкополигональную по определенным правилам (рис. 36). 

Необходимость данного шага была вызвана тем, что алгоритмы ЗО реконструкции 
в данной программе не отличали симметричные объекты от асимметричных и алгоритм 
был плохо устойчив к шумам (блики на лице от внешних источников света), из-за чего 
правая и левая часть лица имели разные геометрические параметры одних и тех же 
областей, но с разных сторон лица. 

Перед получением низкополигональной модели проводился вспомогательный этап. 
Для этого та сторона модели лица, имеющая меньше всего искажений (правая), отра- 
жалась зеркально по линии, проведенной по центру носа, губ и шеи. 


158 «Искусственный интеллект» 2013 №3 


Моделирование эмоциональных проявлений с помощью параметрических моделей... 3 | 


Кроме того, результаты ЗО реконструкции очищались от других поверхностей, 
которые не принадлежали голове (стены помещений, туловище), что позволило зна- 
чительно сократить объем памяти, необходимый для обработки данной модели. 


та 


Рисунок 3— Сравнение топологии модели на разных этапах создания 


Преобразование высокополигональной модели в низкополигональную (или иначе 
аппроксимация поверхности больших порядков поверхностью более низких порядков) 
позволило снизить случайные искажения поверхности, а также исправить неравномер- 
ную плотность сетки модели, с приведением сетки из треугольников к сетке из четы- 
рехугольников. 

Такие преобразования обусловлены необходимостью оптимизации для работы мо- 
дели на современных компьютерах, а также совместимостью с динамическими моделя- 
ми головы, для которых требовалась особая структура сетки модели (топология модели). 

Такая структура заключается в том, чтобы создать сетку, ориентированную относи- 
тельно контуров лица — линии губ, век и бровей, ушей, овала лица [16]. Как правило, 
ребра выстраиваются по структуре в виде колец из четырехугольников. Такая структура 
позволяет ориентировать ребра четырехугольников вдоль направления деформации 
(важно отметить, что имеются в виду не направления действия мышц, а направления, в 
которых поверхность испытывает наибольшие сжатия или растяжения), с понижением 
степени деформации от центров к краям, что позволяет повторять свойства некоторых 
мышц (мышечной структуры лица, круговых мышц рта и глаз) и сделать деформации 
некоторых областей лица менее резкими. 

Преобразование выполнялось с помощью программного пакета ТороСул [17]. 
Топология была сделана таким образом, чтобы овал лица в фронтальной проекции обра- 
зовывал 3 кольца четырехугольников, а также присутствовали аналогичные кольца вокруг 
шеи, контуров глаз и губ (смотри рис. 36). 

Получение динамической модели. В динамических моделях часто приходится 
абстрагироваться от некоторых особенностей лица человека (неравномерность растяже- 
ния лица, появление складок при сжатии поверхности лица, нежесткое закрепление по- 
верхности лица к мышцам, различное поведение мыпщ лица при сокращении и рассла- 
блении и др.) [10]. 

Наиболее простым является метод перехода модели из одного состояния (с опре- 
деленными координатами точек) в измененное состояние (с измененными координа- 
тами точек). В программах, связанных с трехмерной графикой он также известен как 
«изменяемая поверхность» (ВепаЗваре). Данный метод может применяться, когда ме- 
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тод 34-реконструкции позволяет быстрее получить несколько разных моделей состояния 
лица одного человека, чем иные методы. Недостатком является то, что значение изменен- 
ных координат хранится для всех состояний, что при высокополигональной модели 
может требовать большого объема памяти. 

Наиболее часто используемым методом является метод на основе контроллеров ани- 
мации, управляющих определенными областями лица (тогрЬ {агое). Контроллер подо- 
бен направлению по производной поля точек модели. Характер изменения модели 
определяется специальной картой (скиннинг модели), которая вычисляет насколько 
влияет изменение направления и положения контроллера анимации на данную точку. 
Таким образом, меняя положение одного контроллера, можно влиять на координаты 
целой группы точек. 

Несмотря на простоту, такие параметрические модели недостаточно точно отра- 
жают свойства мышечной структуры лица, поэтому в тех случаях, когда требуется более 
высокая точность и имитация сгибания поверхности и других особенностей лица при- 
меняются методы на основе скелетной костной Анимации [12]. 

Методы скелетной костной анимации головы подобны тем, что применяются в 
анимации движений тела человека, с той лишь разницей, что «кость» в данном 
случае является абстракцией, не имеющей ничего общего с костями скелета 
человека: кости скелета человека нерастяжимы, изменение их положения относи- 
тельно друг друга приводит к растяжению или сжатию поверхности тела человека (в 
реальности наоборот). В то же время, растяжение и сжатие мышц лица приводит к изме- 
нению контуров лица, поэтому в костную модель вносятся корректировки. В первую 
очередь, это обязательное наличие свойства растяжимости костей анимации, начала 
и концы которых могут совпадать с некоторыми ключевыми точками на лице. Нема- 
ловажным дополнением является взаимосвязь этих костей между собой (влияние сжатия 
одной мышцы может приводить к растяжению другой), а также введение контроллеров 
анимации, которые позволяют влиять на положение кости. Кости в такой модели могут 
располагаться перпендикулярно направлению изменения мышц, а при использовании 
модели мышечной структуры лица, образовывать сетку радиально и перпендикулярно 
осям мышц. 

При создании динамической модели было предложено использовать методы костной 
анимации как такие, что наилучшим образом решают задачу моделирования мими- 
ческих выражений. 


Получение набора числовых параметров 


Методы компьютерного зрения. Методы компьютерного зрения, используемые 
для получения ключевых параметров, состоят из трех больших групп методов [18]: 

— методы идентификации (Ееабге деесНоп); 

— методы отслеживания точки (та тоу115); 

— методы реконструкции положения точки в пространстве. 

Первая группа методов заключается в автоматическом поиске особых точек 
на изображении, по положению которых устанавливается координата соответст- 
вующей точки динамической модели [19]. Отличие идентификации от отслеживания 
заключается в том, что первая служит для нахождения наиболее выделяющихся то- 
чек и фрагментов на изображении. Хотя лицо содержит достаточно много выделяю- 
щихся элементов, (нос, морщины, глаза, губы), более предпочтительным является 
использование специальных маркеров, расположенных на лице согласно ключевым 
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точкам динамической модели. Данные маркеры имеют расцветку, отличную от цве- 
та лица, что позволяет применять относительно простые методы сепарации областей 
маркеров от области лица, такие как хромокей, также это сильно упрощает алгоритмы 
отслеживания точки. 

Вторая группа методов использует алгоритмы, которые по заданным примерам на 
одном изображении, полученных с помощью алгоритмов идентификации, выполняется 
поиск этих же особых точек на остальных кадрах видеопоследовательности. Данные 
методы могут как анализировать все изображение (получая векторное поле переме- 
щений всех точек на изображении или получая линии градиента цвета и яркости на 
разных изображениях), так и небольшую окрестность точки, полученной с помощью 
методов отслеживания или идентификации на предыдущих кадрах последовательности 
(например, методы блочного сравнения или детекторы углов [20]). Применение 
таких методов для анализа динамического состояния лица в случае отсутствия маркеров 
вызывает ряд сложностей. В первую очередь, алгоритмы поиска ключевых точек по 
фрагментам изображения дают худшие результаты, если требуется найти не пятно 
яркости (как в случае с использованием маркеров), а фрагмент изображения по задан- 
ному шаблону, который испытывает неоднородные искажения масштаба и поворота 
(такие как вырождение дуги в отрезок и острого угла в дугу). Во вторую очередь, это 
связано с малой частотой кадров большинства современных видеокамер и наличия 
сильного сжатия изображения, в связи с чем естественные характерные точки лица 
становятся сильно размытыми (что возникает даже при использовании маркеров), а 
низкая частота кадров не позволяет точно установить траекторию движения характер- 
ной точки (вырождение двух положений точек в отрезок или попадание точки вне 
области поиска). С появлением современной аппаратуры, такой как скоростные видео- 
камеры высокого разрешения, становится возможным применение и безмаркерных мето- 
дов, но эти решения требуют больших финансовых ресурсов, поэтому применение таких 
решений обоснованно, по крайней мере при использовании генеративных моделей 
головы человека. 

Третью группу методов можно условно поделить на 3 подгруппы: 20 методы, 
2.50 методы, стереометоды. 

20 методы позволяют получать множество точек в двухмерном пространстве 
(20 реконструкция), которое впоследствии с помощью специальных алгоритмов может 
преобразовываться в множество точек в трехмерном пространстве (т.е. по имеющимся 
координатам точек можно получить искомую координату глубины точки на изобра- 
жении), а координата 7, (глубина) вычисляется на основании теоретической траектории 
движения точки, которая, как правило, является кассательной к поверхности лица в точке 
признака. 

Они используются в случае, если видеокамера закреплена неподвижно относи- 
тельно головы. В данном случае, траектория движения точки в динамической модели 
совпадает с траекторией движения точки на видеопоследовательности. 

2.5) методы используются в случае, когда нельзя обеспечить неподвижность 
головы относительно камеры. Такие методы основываются на том, что часть точек 
на лице могут оставаться неподвижными (например, уши, кончик носа, линия роста 
волос) при возникновении мышечной активности. Зная координаты этих точек и рас- 
стояние между ними, можно по проекции этих точек на одном кадре вычислить иска- 
жения масштаба и поворота и восстановить исходное положение точек путем аффин- 
ных преобразования поворота и наклона. Хотя такие методы позволяют использовать 
только одну камеру, недостатком является перекрытие поверхностью лица части 
признаков при значительных искажениях масштаба и поворота. 
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Стереометоды (которые по сути являются модификацией 2.5) методов) лик- 
видируют этот недостаток, т.к. используется сразу несколько ракурсов камеры, на каждом 
из которых присутствует большая часть признаков. Обычно используется 3 ракурса 
(слева и справа под углом 45 градусов и спереди), но могут встречаться в профессиональ- 
ных системах методы, использующие 8 и 16 ракурсов камер. В стереометодах, как и в 
2.50 методах, на основании проекций трехмерного объекта (головы) устанавливается 
с помощью математических преобразований истинное положение ключевого признака 
динамической модели. Отличием является то, что наличие нескольких изображений 
одного признака позволяет не использовать в системе уравнений расстояния между 
признаками в статической модели, а также возможность установить положение ключе- 
вого признака, даже при перекрытии его на части ракурсов. 

Также следует отметить, что перечисленные методы с применением специаль- 
ных алгоритмов преобразования масштаба позволяют получать числовые параметры 
движений одного человека и переносить их на динамическую модель головы другого. 

Исследование алгоритмов получения числовых параметров. При получении 
числовых параметров движений динамической модели крайне важно знать количество 
ошибок распознавания, а также практическое быстродействие программных средств. 
Эти факторы следует учитывать при выборе ключевых параметров динамической моде- 
ли, т.к. вычислительные возможности используемых систем ограничены. Поэтому этап 
создания динамической модели следует проводить только после экспериментальной 
проверки алгоритмов компьютерного зрения, используемых для получения числовых 
параметров. 

Для этих целей в ряде экспериментов анализировалось быстродействие и другие ха- 
рактеристики алгоритмов компьютерного зрения: ЗТЕТ (Зсае-шуапапй Ееабиге фапзогт), 
КТТ (Кападе-Глсаз—Тотаз1 еабге {гасКег), ЗАО (Зит оё абзоие ИЕегепсез), МСС (№ г- 
та|7е4 сго$$ сотгейайоп), 330 (Зит ОР запаге4 <Иегепсез), Со]ог Н15юстат (Н1юэтат та 
спе), на примере программных средств, содержащих в себе реализации этих алго- 
ритмов: Вепдет [21], АСТ 1.5 [22], Уоодоо 1.5 [23], У14еоТгасе [24], УооСАТ [25], 
Вощоч [26], Маюртоуег 2012 [27], Мосва [28], Зут®ЕБуез [29], Еизюп [30]. 

Важным параметром у этих средств является способ поиска признаков на изо- 
бражении. Отличие заключается в возможности управлять процессом идентифика- 
ции [20] и, следовательно, выбора ключевых признаков — в автоматических этот процесс 
происходил по заданному алгоритму (т.е. ключевые признаки находились алгоритмом 
автоматически), во вторых — с участием оператора, который мог ограничить множество 
точек и их начальное расположение. Если первый удобен при достаточно большом 
количестве точек, когда поиск точек с высоким уровнем ошибок выполнялся на основе 
других точек и они могли исключаться из дальнейших вычислений, то второй исполь- 
зуется, когда на объекте достаточно мало ключевых признаков и они заранее известны, 
а расчет большего количества точек затруднителен из-за больших затрат машинного 
времени, что будет показано ниже. 

Было проведено несколько экспериментов по определению характеристик алго- 
ритмов компьютерного зрения: 

— первый должен был выявить, каким образом выбирать ключевые признаки, 
чтобы время и количество ошибок захвата движений не превышало некоторого порога. 

— второй должен был установить, какой из методов захвата дает большую ско- 
рость захвата и, следовательно, лучшие результаты. 

В первом эксперименте использовалось 4 видеопримера, содержащих лицо чело- 
века с различными мимическими проявлениями, различной длительности и с различным 
количеством признаков. 
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Во время изучения ошибок идентификации был составлен подробный список 
наиболее распространенных ошибок захвата движения. Ошибки были разбиты на не- 
сколько групп: ошибки первичных данных и ошибки алгоритма. 

Ошибки первичных данных: 

— потеря или сдвиг признака из-за перехода оттенка признака в оттенок подложки; 

— смазывание признаков при использовании алгоритмов сжатия с большим 
уровнем потерь или при резких движениях; 

— потеря признака из-за размытия изображения при низких разрешениях изображе- 

ния (менее 640х480р). 

Ошибки алгоритма: 

— идентификация соседнего признака при попадании его в область поиска; 

— потеря признаков при аффинных преобразованиях типа «поворот по оси 7» и 
«поворот по оси У». 

Понятно, что ошибки первичных данных могут устраняться только при исполь- 
зовании алгоритмов сжатия видео без потерь. Ошибки алгоритма могут устраняться 
только подбором параметров (в т.ч. изменения области поиска). 

Во втором эксперименте на примере видео, давшего наилучшие результаты, было 
решено сопоставить в одинаковых условиях различные алгоритмы компьютерного 
зрения на примере программных средств, содержащих эти алгоритмы. 

Эксперимент проводился следующим образом: 

— задавалось количество отслеживаемых точек на уровне 23 (как в тестовом видео); 

— если алгоритм содержал только автоматическую идентификацию признаков, 
то задавалось минимально возможное количество признаков; 

— в течение 30с (длительность тестового видео) определялось количество 
полных кадров, которые успевала обработать программа; 

— полученные значения заносились в таблицу, а в итоговую таблицу заносилось 
среднее значение по всем имеющимся в программе алгоритмам отслеживания движений. 

Для всех алгоритмов, количество кадров нормировалось по количеству точек — 33, 
которое получалось на основе предположения о гиперболической зависимости вре- 
мени обработки от количества точек. На основе полученных данных был построен 
график (рис. 4), отображающий зависимость количества обрабатываемых кадров за 
одну секунду от количества точек. Этот график смог показать, в частности, теорети- 
ческую способность алгоритмов работать в реальном времени (изолиния 30 кадров в 
секунду), а также сравнить их и выбрать среди них наилучший; такие результаты по- 
казали алгоритмы, содержащиеся в программных средствах Зуп®Еуез и УооСАТ. 
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Р исунок 4— Производительность средств компьютерного зрения при разном 
количестве отслеживаемых признаков 
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Апробация выбранных алгоритмов на тестовых видеозаписях. Для апробации 
алгоритмов идентификации была проведена серия экспериментов на тестовых видеофраг- 
ментах, с целью установить, какие условия необходимы для съемки. 

Прежде всего, важно было установить: 

— необходимое число камер и их конфигурацию в пространстве; 

— какой из методов трехмерной реконструкции показывает лучшие результаты. 

Оценка быстродействия и точности работы алгоритмов компьютерного зрения 
не проводилась, т.к. это было выполнено сразу в двух тестовых экспериментах. 

Первая серия экспериментов была проведена с одной камерой, с лицевыми маркера- 
ми зеленого цвета, нанесенными смываемой краской, а также повторно, но с белыми 
бумажными маркерами круглой формы. Маркеры наносились в одинаковых местах в 
ключевых точках параметрической динамической модели, полученной в предыдущих 
экспериментах. 

В результате экспериментов было установлено следующее: 

— маркеры, которые при движении изменяют угол относительно плоскости кадра, 
создают ошибки отслеживания движений, т.к. сильно изменяется форма маркера; 

— маркеры, нанесенные смываемой краской на лицо, сливаются с фоновым цветом 
лица из-за аппаратного сжатия изображения; 

— при съемке с одного ракурса можно наблюдать непроизвольные повороты головы 
относительно центра камеры при возникновении мимики на лице. Это приводит к иска- 
жениям масштаба, что в свою очередь делает 20 реконструкцию невозможной. 

В связи с возникшими факторами, негативно влияющими на эксперимент, были 
предложены несколько путей решения каждой из проблем: 

— для уменьшения ошибок алгоритма, связанных с формой маркера, желательно 
использование маркеров круглой формы, которые при наклоне относительно плоскости 
кадра не изменяли бы формы, а также поверхность маркера должна давать рассеян- 
ный отраженный свет (матовая поверхность); 

— для учета ошибок, связанных с поворотом головы относительно камеры, следует 
применять либо несколько камер, которые позволяют вычислить поворот головы с 
нескольких камер, либо закреплять камеру относительно головы на специальном шлеме. 

Ввиду получения оптимальных параметров съемки, было решено провести эту 
серию съемок одновременно с экспериментами по захвату движений и трехмерной 
реконструкцией движения. 

Третья серия экспериментов отличалась от остальных тем, что: 

— было решено отказаться от искусственного освещения в пользу естественного 
рассеянного; 

— были использованы сферические белые маркеры на клеющей подоснове вместо 
плоских; 

— было использовано две камеры вместо трех, в т.ч. те, которые в предыдущих 
сериях экспериментов показали удовлетворительные результаты; 

— использовалась калибровочная сетка из плоских маркеров, наклеенных на 
задний фон, и опорные точки, закрепленные на неподвижных областях головы, 
необходимые для следующих экспериментов. 

Серия экспериментов содержала эксперименты с разными конфигурациями камер: 

1) 1 камера по центру, 1 камера под углом 45 градусов к центральной камере; 

2) 2 камеры под углом 45 градусов к плоскости объекта; 

3) 1 камера по центру, 1 камера под углом 45 градусов к центральной камере в 
вертикальной плоскости. 
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Эксперименты позволили установить следующее: 

— наилучшая видимость маркеров лица обеспечивается, если лицевые маркеры 
находятся в фоне лица, а ключевые маркеры, от которых ведется отсчет глобальной 
системы координата, не находятся на границе лица и фона; 

— при съемке лица с боковых ракурсов (1х45 или 2х45) не обеспечивалось выполне- 
ние первого условия, поэтому камеры с такой конфигурацией не использовались. 

— наилучший результат показала конфигурация камер: 1 камера по центру, 1 камера 
под углом 45 градусов к центральной камере в вертикальной плоскости. 

Получение числовых параметров параметрической модели. На основании 
информационной модели эмоциональных проявлений было предложено провести экспе- 
римент по получению числовых параметров мимических компонент: 

— 88 мимических компонент, полученных в работе [8]; 

— 70 эмоциональных мимических выражений, полученных в работе [9]. 

Этот эксперимент позволил бы, проверить на практике полученные результаты 
теоретических исследований, в частности то, что: 

— мимическое выражение выражается через сумму мимических компонент; 

— компоненты мимических выражений неделимы и не выражаются через другие 
компоненты. 

Также ожидается, что эксперимент позволит ответить на такие вопросы: 

— каково влияние мимических компонент на другие компоненты (вызванные 
натяжением лица при сокращении мышц); 

— каковы численные характеристики (длительность проявлений) отдельного компо- 
нента; 

— какова последовательность возникновения отдельных компонент в мимическом 
выражении; 

— как отличаются различные эмоциональные выражения между собой. 

Для этого эксперимента был создан сценарий, который при записи эмоциональ- 
ных мимических выражений использовал короткие предложения со словами, содер- 
жащими эмоциональный оттенок, соответствующий эмоциональному оттенку иссле- 
дуемого выражения. Это позволило бы также проверить методику исследования сло- 
варей жестовых языков, показав наличие экспрессии у отдельных слов в разговорной 
речи и наличия большого диапазона мимических выражений в разговорной речи, а также 
одинаковой роли в эмоциональных выражениях как в жестовой, так и в разговорной речи. 
На основании полученного сценария были записаны тестовые видеозаписи. 

Эксперименты по захвату движений трехмерной реконструкцией движения. 
Для проведения этих экспериментов использовалось программное обеспечение для 30 
реконструкции Аию4дезк МакЬтоуег [27], программное обеспечение для обработки 
перекодировки видео, а также программное обеспечение для обработки звуковых файлов. 

Из видеозаписей, полученных с видеокамер, отделялась звуковая дорожка с и 
преобразовывалась в формат \АУ (\/ауе). Полученная звуковая дорожка (точнее ее 
спектрограммы), анализировались для каждой пары видеозаписей, используемых в 
дальнейшем и отвечающих всем критериям, предъявляемым к качеству записей и усло- 
виям съемки, описанным выше. На каждой из спектрограмм выделялся пик амплитуды, 
начало какого-то звука, или другой характерный признак, который предварял момент 
появления информации на видео. Этот момент на каждой из звуковых дорожек определял 
точку синхронизации двух видеозаписей. 

Полученные в результате значения точек синхронизации обрезались и преобра- 
зовывались МОУ с алгоритмом компрессии видео — МЛРЕС. Этот формат обеспечивал 
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наибольшую скорость работы алгоритмов захвата движений, по сравнению с ориги- 
нальными форматами видео — МРЕС4 или Н.264 из-за более быстрой декомпрессии 
видео в формате МЛРЕС (разница примерно 10 раз). 

Для проведения отслеживания движений маркеров на первом кадре каждой из 
видеопоследовательностей выбирались начальные координаты маркеров (как марке- 
ров лица, так и маркеров на шапочке). Затем, для каждого из маркеров на всей видео- 
последовательности выполнялось автоматическое отслеживание движений. 

На основе результатов по отслеживанию движений были проведены экспери- 
менты по реконструкции движений. Для проведения корректной реконструкции (такой, 
что фронтальная и профильная проекция «облака маркеров» повторяли бы, с соблю- 
дением пропорций, положение этих маркеров) были выдвинуты ряд требований: 

— на голове должно быть по меньшей мере 3 маркера, имеющих неизменное по- 
ложение друг относительно друга (например, 1 маркер на кончике носа и 2 на шапочке) 
и созданы связи между этими маркерами; 

— на заднем фоне должно быть максимально возможное количество статичных мар- 
керов (т.е. не изменяющих своего положения относительно камер на всем протяжении 
съемки); 

— число кадров, используемых для реконструкции должно быть одинаково для 
всех видеофрагментов, используемых для реконструкции; 

— число кадров, содержащих результаты отслеживания с оценкой «ужасно», должно 

быть минимально и уменьшено с помощью инструментов интерполяции траектории. 

Реконструкция проводится в два этапа. Вначале программа отбирает на всей 
последовательности кадров и для всех используемых видеозаписей набор ключевых 
кадров, для которых выполняет расчет положения каждой точки в пространстве, с учетом 
проекций этой точки на плоскость кадра каждой из камер, а полученные данные интер- 
полирует затем на весь диапазон кадров. Если какая-то группа маркеров из «облака 
маркеров» изменяет свое положение и поворот относительно камеры, то их движения 
учитываются в расчете движений каждого из маркеров, принадлежащих «облаку мар- 
керов». 

После этого полученная черновая версия «облака маркеров», как правило, имеет 
взаимное расположение маркеров, отдаленно напоминающее расположение их в реаль- 
ности. Для получения более точного расположения маркеров в пространстве исполь- 
зуется этап калибровки камеры (для разных версий программы этот этап может вы- 
полняться до или после реконструкции положения точек). 

Калибровка камеры заключается в уточнении взаимного расположения камер в про- 
странстве по положению статичных маркеров в сцене, а также (что немаловажно), расче- 
ту искажений оптической системы камеры и ее параметров (даже если они заранее 
неизвестны). На этапе калибровки выбирается максимально возможное количество 
точек на неподвижном фоне, а затем вычисляются поправочные коэффициенты для 
полученной ранее черновой версии реконструкции движений. 

На этом этапе получается визуально достаточно точное положение каждого из 
маркеров (включая статичные) в пространстве, которое может использоваться для даль- 
нейших исследований или для проверки их в одном из программных пакетов компью- 
терной графики. 

Проверка результатов 34 реконструкции для оценки достоверности получен- 
ных данных. Для оценки качества ЗА реконструкции и оценки достоверности получен- 
ных данных было предложено проверить их на тестовой 34 модели, позволяющей управ- 
лять изменениями лицевых признаков (челюсть, губы, щеки, ноздри, веки и лоб). 
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Для этой цели был выбран программный пакет АиюдезК Монопбо|аег [31], в кото- 
ром открывался файл, содержащий результаты 34 реконструкции, а полученные дан- 
ные в виде облака точек переносились на полученную параметрическую модель лица 
и визуально оценивалось восприятие тех или иных мимических выражений, создаваемых 
этой моделью лица с использованием исходных данных. 

Получение этих синтезированных мимических выражений выполнялось в сле- 
дующей последовательности. Вначале в программу загружались исходные данные в 
формате трехмерных точек, неподвижных относительно системы координат, рассчитан- 
ной программой АщодезК Максртоуег. Затем, среди всех точек находились несколько 
точек (в данном случае три), которые не изменяли взаимного расположения и принадле- 
жали облаку точек, повторяющему контуры лица, из которых создавался объект 
«твердое тело» (иол4 Боду). Полученный объект, а именно его центр, использовался 
для создания новой системы отсчета (относительно которой облако точек было бы не- 
подвижноО). 

В сцену добавлялся объект «модель лица», для которой задавалась система отсчета, 
содержащая неподвижные точки, включая центр «твердого тела», которые позволяли 
вычислять смещение облака точек и их поворот. 

Затем в соответствии с каждой управляющей точке упрощенной модели ставилась 
в соответствие аналогичная точка из облака точек, либо несколько точек, на основе 
которых рассчитывалось положение управляющей точки в каждый момент времени, 
которая управляла, в свою очередь, состоянием мимических проявлений на упрощенной 
модели лица. 


Выводы 


В результате исследований была создана параметрическая модель головы, вклю- 
чающая статическую и динамическую модели, признаки, а также получены числовые 
параметры, использовавшиеся для моделирования мимики на параметрической модели 
головы. Результаты моделирования показали, что с помощью полученной параметри- 
ческой модели головы можно моделировать мимические выражения реального человека. 

В дальнейшем, данные исследования будут расширены на набор мимических вы- 
ражений, полученных в предыдущих исследованиях [9] и могут быть использованы для 
моделирования эмоциональных проявлений в жестовом языке на 34 аватаре жестового 
языка [32] и для задач идентификации мимических проявлений на известном наборе ми- 
мических выражений. 
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КЕ5ОМЕ 
Ли.Г. КтаК, Г.А. Киспебоу, А.5. Тегпоу 


Каса Ехргез5оп5 МоаеПиз Ва5е4 оп а Рагатейлсе Моае[5 
ога Нитап Неаа 


Резсге4 ш 1е агае аге фе $ерз оЁ сгеайоп Фе рагатейлс Веа то], у/Вах Ваз 
Бееп ргорозе4 Рог то4деПпе засН е@етеп оЁ з1юп [апоцасе аз етойопа!| ехргез$101$. А 
Гасла1 эгасфаге ууаз зе ш ригрозе {о дезсг®е ап ех15Япе $е{ оР етоНопа]| ехргез$101$ 
ш $11 [апопазе. 

А айс @гее 4ипепз1опа| то4е] Ваз Бееп стезже4 Базе4 оп а Гасе оГа геа! Битап. 1 
уаз пойсе4 а зе оЁ а сВагафет1$Ис рош, Базе оп дайа або а рош оЁ ипсНоп ап4 
еасп сепге оЁ еасН Ёас1а| паз е оЁа геа| Битап; фезе рош5 дейпе а зе оЁ рагатеегз. 
Ц а[50о ууаз зеё оЁ еетеп оЁ дупапис тоде! ог Ёас1а| апиптайоп Базе4 оп Кпо\едэе 
абоиё пизс]е згасте. 

[ \маз апа[у7еа @1егепе а|оотИ из оР гебпеуте оР питенс уаез (а! от ил$ оЁ 
сотршег у151оп) Бу етрюуше а зоЙ\гаге сомаште ехатр[ез оЁ Шезе а]еот $; ш 
рагасШаг, И уаз апа|уте4 ш 1е5{ у14еоз засВ ргорегИез оЁ езе а1еотИйил$ аз Ите оЁ 
сотршайоп, ап шЙмепсе оЁ сВапоше ог БасКотоипа апа фтасКе4 Геаеаге со]ог ап4 зВаре. 
Вазе оп 115 Уер, И \’аз сВозеп ап аеогИт а тасБез Фе гедитетеп{$ оЁ 1$ 
гезеагсВ. 

Ц уаз сопаисеЯ а зе{ ог ехрегипеп ш ригрозе ю се а питенс уааез оЁ а 
рагатейлс по4е|. ТБезе ехрегипеп{ шс[аде4 а сВесК оР омпетайоп оЁ у14ео сатегаз, 
Гогта{ {урез ап арргоаспез оЁ у14ео зеотештайоп. И а|[50 \’аз 1е$е4 ап а!еотИт оЁ 
{гее Аитепз1опа| гесопзгасНоп Базе оп а аа сощаште а падесюне$ оР тоуетеп оЁ 
Геабге рош оп а У14ео её сощашше ЧШетеп у1е\уз оЁ Фе Ёсе. Вазе@ оп езе 
ехрегитеп!5, И Уаз таде Н!ише ап етойопа!| ехргез$10п$ о1уеп аз а гези а рагатеег$ 
ОР Ше рагатейлс то4е|; Фезе рагатеетз \уеге изе4 г ЁРс1а| ехргез$1юп то4дейие Юг 
51еп 1апецасе. 

ОТуеп аз а гези%, а рагатейлс плоде] уаз 1е5е4 ап4 а[50 уаз Коип4 оиё 

— Бо\/ сап Бе а Ееабгез Юоци4 оп Фе Ёасе; 

— Во\/ шапу Геаиге$ 15 пееде4 1ю се! Фе то4е!| {вай сап гергезеп Рас1а] ехргез$1015 
согтесйу: 

— \Таё рош 6 оЁ Фе Ёасе гергезет а тахипит атрШа4е оР пизсе ергезз1оп ог 
ге]ахаНоп; 

— Ува фуре оРтезблсвоп$ Вауе Ше а[2огИил$ оЁ сотриег у1310п; 

— Боу/ ищу а рагатейлс поде| дезсте$ а Витлап асе. 

ТЫ$ гезеагсй 1$ №0 Бе ежепае4 оп ап ех1${епё зеё оЁ Рас1а| ехргезз1оп$ гейлеуе4 ш 
еагйег гезеагсВез ап4 сап Бе аррПе4 т Ёасла| ехргеззюп то4деПие г 11 |апопазе оп 
ЗО $1еп 1апоцасе ауайаг ап4 ш ригрозе фо 14еп Бу а писго ехргез10п$ оп а Кпо\т зе! оРа 
Гасла| ехргезз10п$. 
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